iT邦幫忙

2021 iThome 鐵人賽

DAY 14
0

Overfitting是在執行任何模型的時候我們都要注意的問題,今天就來聊聊overfitting是什麼

Overfitting vs. underfitting

任何資料都同時包含著"signal"和"noise",我們想建立一個模型來找出"signal"並預測目標,但如果模型過度複雜,就會把"noise"當成"signal",產生overfitting的問題。這裡可以想像成當我們在學習新的東西的時候,如果吸收理解就可以舉一反三(理想模型),但如果完全硬背,雖然可以根據記下的內容去正確的回答問題,但會無法應用在其他地方(overfitting)。

Underfitting則發生在當我們建立的模型過於簡單,模型無法透過所知來預測(也可以想成學得太少根本無法應用)。ML中有一個詞語叫做“bias-variance tradeoff”,其實就是在描述overfitting和underfitting的對比:當今天模型過度簡單(想像基本的linear regression),那預測出來的結果會很單一,導致bias大以及variance小;反之若模型過度複雜,那預測的結果bias小以及variance大。
https://ithelp.ithome.com.tw/upload/images/20210928/20142004FErAwce5mj.png

如何避免Overfitting

  1. cross validation
  2. remove features
  3. more data!
  4. early stopping(主要用在deep learning)
  5. regularization
  6. ensembling

references:
https://elitedatascience.com/machine-learning-iteration#micro


上一篇
KNN VS. K-means
下一篇
回歸模型的衡量標準:MSE. RMSE. MAE. MPE
系列文
Python 機器學習實驗室 ʘ ͜ʖ ʘ30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言